文章详细讲述了一种异构指令集的设计方法,包括不同指令集的性能、能耗、代码和寄存器使用方面的特征,探讨了在同一个计算任务中使用异构指令集可以获得的改进空间以及实现时的各种技术细节。
本报告首先介绍计算机体系结构设计方法方面的平衡设计思想,然后结合计算机体系结构发展历程分析数据流计算机体系结构的发展脉络,从数据流计算机起源到CPU、GPU中数据流计算思想的体现,分析定制智能算法加速器的优势,最后展望人工智能算法发展对计算机体系结构的影响。
信息技术的快速发展和超算技术的飞跃推动着人类社会技术和应用的蓬勃发展,本报告分 析超算相关前沿技术及主流应用的特点,探讨下一代系统技术发展趋势,以及不断增长的超算应用新 需求给超算体系结构、软件设计所带来的影响,探讨融合应用与系统协同的均衡设计技术和平台软件 技术,为我国超算全面支持包括人工智能、大数据在内的多领域应用可持续发展提供有力支撑。并从 均衡设计的角度出发探讨女性如何突破发展瓶颈。
云端智能应用场景的多用户,高并发和动态负载特征引入了两大亟需解决的难题:一方面,当前的数据中心存在空间不均衡和时间不均衡的问题;另一方面,异构硬件平台较差的开发易用性不利于降低开发成本。为了解决上述难题,云端数据中心引入了虚拟化这一项基本技术。本文将对云端智能应用场景下的异构硬件虚拟化技术进行介绍,特别是面向FPGA的多用户虚拟化共享技术和面向ASIC的多用户AI加速器硬件架构设计。
作为大数据表示的基本方法, 张量在图像处理、社交网络、推荐系统等人工智能相关领域领域具有极广泛的应用。张量运算是探寻张量固有内在数据关系的关键。随着人工智能应用的不断深入,用以描述的张量维数或阶数迅速增大,张量运算已成为计算和数据密集型应用,对高性能计算提出了极大的需求和挑战。将针对高维高阶稀疏张量中非零元素的分布特征,设计相应的密度函数,据此探求张量的多维度压缩存储方法,研究新型张量运算异构并行算法,并结合国产异构超算系统的体系结构、面向未来 E级计算,探讨其高效可扩展并行处理技术,并通过推荐系统和高光谱遥感图像处理等人工智能相关应用对其性能进行验证,以最终实现大规模张量的快速运算。
基于异构内存构造新型混合内存系统,或可提供价廉、低耗、相对高性能的处理环境,是解决大数据处理时效性问题的一个重要方向。报告人简要介绍了国内外研究进展,以及研究团队在结构安排、数据管理以及模拟器等方面的具体工作。
文章详细讲述了一种异构指令集的设计方法,包括不同指令集的性能、能耗、代码和寄存器使用方面的特征,探讨了在同一个计算任务中使用异构指令集可以获得的改进空间以及实现时的各种技术细节。
文章详细讲述了大规模集成电路的后摩尔时代编译器和编译技术提高系统性能的方法,尤其针对数据局部性优化这一挑战,描述了数据移动的代价以及利用多面体循环优化和特定域优化来提升编译器性能的方法, 并给出了几个编译优化的开放问题。
文章详细讲述了一种以数据为中心的节能计算范式——存内计算,从自底向上和自顶向下两个维度给出了对智能内存控制器的需求, 并通过代码映射与调度、数据映射与一致性、虚拟内存支持以及数据结构设计等方面探讨了启用存内计算的方法。
文章详细讲述了利用非易失性内存提升软件系统性能的方法,包括非易失性内存文件系统构建及其与Java 虚拟机的有效结合,并以分布式事务系统构建为例分析了非易失性内存的应用为计算系统带来的性能提升。
文章详细讲述了降低芯片设计门槛的三大需求,给出了构建开源芯片生态的四个要素以及他们目前的研究进展,对于打造芯片敏捷开发平台、破解中国半导体产业面临的“卡脖子”问题具有重要的参考价值。
In this presentation I will present the Xilinx Versal Platform. I will show the overall system architecture of the family of devices including the Arm cores (scalar engines), the programmable logic (Adaptable Engines) and the new vector processor cores (AI engines). I will focus on the new AI engines in more detail and I will show some application domains, including Machine Learning and 5G wireless applications. The first device in this family contains 400 of these vector processor cores. These complete devices are supported by an integrated programming environment. The commercial application in 5G processing is showing promising results.
针对多种类的异构芯片给应用开发所带来的编程效率、执行效率的挑战,我们分享一些在 异构环境下效能探索的研究。主要包括三个部分:1)针对计算芯片的异构性,以手机端 AI 框架为例, 研究任务在计算芯片上的自动优化部署;2)针对数据对象的异构性,以 TensorFlow 中的张量对象为例, 研究其在不同芯片上执行时数据布局的自动确定;3)针对存储的异构性,以 Spark 为例,研究软件栈 中垂直协同的资源管理方法。